[2023年4月5日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
今回の2023年4月5日号が1本目です!今後、可能な範囲で2週間に1度くらいのペースで投稿できればと考えています。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Data Extract/Load
Fivetran
S3に対してApache Icebergフォーマットで出力可能になりました
Fivetranは元々、アプリケーションやRDB➟DWHへの連携に強みを持つ製品でしたが、今回Apache IcebergのフォーマットでS3に出力できる機能をリリースしました!
今後の展望として、Snowflakeが発表しているIceberg Tableと組み合わせて使うと、各アプリケーションやRDBのデータも全てS3上に置いたレイクハウスアーキテクチャが簡単に実現できそうですね!
Airbyte
Data Modelingに関する記事を出していました
データのExtract~Loadを担ってくれるAirbyteが企業ブログで、データモデリングに関する3部作の1本目の記事を出していました。1本目では、データモデリングが重要な理由から歴史に加え、昨今データモデリングが再び注目されている理由、データモデリングに必要な概念、などについて書かれています。
Airbyte社は定期的にデータエンジニアリングに関する優良な記事を出しているため、要チェックです!
Data Warehouse
Snowflake
Snowpark for PythonのコーディングがSnowsight上で出来るように
Snowpark for PythonのコーディングがSnowsight上で出来る「Python Worksheets」がパブリックプレビューになりました!
これまでSnowparkを用いた処理を開発するには、自身で開発環境を構築してSnowpark含め必要なライブラリをインストールして、という一連の準備が必要でしたが、Snowsightの画面上でPython Worksheetsを選択して起動するだけで、すぐに実行できるサンプルコード付きのWorksheetsを立ち上げて、Snowparkを用いた処理の開発に取り掛かることができるようになりました。
私も簡単にですが試してみたので、ぜひ下記の記事も併せてご覧ください!
BigQuery
BigQueryからCloud SpannerのデータをFederated Queryでクエリ可能に
Cloud Spannerはスケーリング容易でフルマネージドなRDBですが、BigQueryから直接Federated Queryでクエリ出来るようになりました!こういったFederated Queryの機能は、Google CloudやAWSの強みだなと改めて実感しました。
Data Transform
dbt
dbt Tokyo Meetup #5が開催
dbtの日本コミュニティにて、5回目となるMeetupが開催されました!dbtを実運用している方々が知見が盛りだくさんで、dbtをご利用中の方はとても参考になる情報が多いと思います。
YouTubeで録画も配信されておりますので、ぜひご覧ください!
Business Intelligence
Looker
Looker Modelerの発表
Lookerは元々LookMLで定義したModelを参照してダッシュボードを構築できる製品でしたが、この「LookMLで定義したModel」の部分だけを抽出した、Looker Modelerという製品が発表されました。Semantic Layerの分野が最近熱いですね!
Sisuとの連携機能をPrivate Previewで提供開始
SisuとLookerの連携機能がPrivate Previewで提供開始となりました。
Lookerのタイルから起動することで、Sisuが自動で算出してくれる各指標の構成要素をすぐに確認することができ、より深い分析が可能になります。Sisuを使うことで、ユーザー側で何もしなくてもインサイトを出してくれるのがありがたいですね!
Tableau
Tableau 2023.1でJDBCベースのBigQueryコネクタがリリース
従来のBigQueryコネクタとアーキテクチャを変更し、JDBCベースのコネクタがTableau 2023.1から使用できるようになりました!
特に注目したいのが抽出の作成速度で、下記の記事では「761万レコードのデータセットから抽出を作成したところ、従来のコネクタでは9分35秒かかったものが、新しいコネクタでは2分6秒で完了しました。」とありました。これは熱いですね!
1つ注意点としては、抽出の高速化に使用されているBigQuery Storage Read APIは「月に300TBまで無料、以降1TBごとに1.32USD ※asia-northeast1にて」のコストがかかります。データ容量によっては思わぬコストが発生するかもしれないため、ご注意ください!
Thoughtspot
GPT-3と連携したThoughtSpot Sageを発表
元々自然言語で問い合わせしてグラフを作成できることがコンセプトであったThoughtspotでしたが、GPT-3との連携機能を「Thoughtspot Sage」として発表していました。
Data Catalog
Select Star
Power BIと接続している場合にカラムレベルリネージが見れるように
元々TableauやLookerではカラムレベルリネージに対応していたSelect Starですが、Power BIも対応しました!
Atlan
GPT-3を搭載したTrident AI ※2022年12月に発表
Atlanが、GPT-3と連携した「Trident AI」を発表していました。Descriptionの提案、READMEの提案、といったことが出来るようです。(下記のデモ動画も併せてご覧ください。)
また、GPT-3のようなAI機能を搭載したデータカタログについて「AI Data Catalog」と提唱した記事も書いていました。
Secoda
メタデータ管理に関するプラクティス
データカタログのサービスを提供するSecodaが、メタデータ管理に関するプラクティスをまとめた記事を出していました!
Castor
Castor上のDescriptionをdbtに書き戻すことが出来る機能がリリース
Castor上で定義したDescriptionをdbtに書き戻すことができる「Sync Back to dbt」機能が2023年2月にリリースされていました。
こちらの記事で私も試した内容をまとめております!
Amazon DataZone
Amazon DataZoneがパブリックプレビュー
AWSのデータカタログサービスであるAmazon DataZoneがパブリックプレビューになりました!
消費者側は利用したいデータがあったら申請を行って承認を得られたらデータにアクセスできるようになるなど、他のSaaSのデータカタログには無い機能も多く搭載しているため、個人的にも気になっております!
Amazon DataZoneで出来ることについては、下記の記事をご覧ください。
Data Activation (ReverseETL)
Hightouch
BigQuery×HightouchによるComposable CDPの記事
BigQueryとHightouchを組み合わせることで、Composable(構成しやすい) CDPを導入できるよ、という紹介記事がありました。
BigQueryはGA4のデータを標準機能でエクスポート出来るので、GA4で取得したデータも使ってHightouch上でセグメントを切って、各マーケティングツールに連携して配信する、ということがスムーズに可能です。
Data Quality・Data Observability
Monte Carlo
Fivetranとの連携機能を発表
Monte Carloが、Fivetranとの連携機能を発表していました!
詳しい実態は掴めていないのですが、連携することでデータの鮮度、データの分布、データリネージなどが確認できるようになりそうです。
Great Expectations
Cloud版がBetaとして提供開始
元々データの品質チェックに有用であったOSSである「Great Expectations」ですが、Cloud版をBetaとして提供開始しました!
SaaSのためユーザー側でホストする必要なくGreat Expectationsの機能を使うことができ、複数ユーザーに対応するためのアクセス制御機能なども備わっているようです。
最後に
私が個人的に気になったModern Data Stack情報をまとめてみました。
今後も2週間に1度くらいのペースで書いていければと思います!